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摘 要: 针对 由 于 生 鲜 产品 的 易 逝 性 特征 以 及 复杂 多 变 的 现实 环境 导致 生 鲜 产品 的 最 优 订 贷 和 定价 策略 难以 获得 问 
题 ， 提 出 了 基于 深度 强化 学 习 方 法 的 生 鲜 产品 联合 库存 控制 与 动态 定价 方法 ， 结 合生 鲜 产 品 特性 对 问题 进行 建 模 并 
定义 为 马尔 可 夫 决 策 过 程 ， 然 后 基于 深度 强化 学 习 设 计 了 生 鲜 品 联合 库存 控制 和 动态 定价 算法 。 实 验 结果 表明 ， 基 
于 深度 强化 学 习 的 联合 库存 控制 和 动态 定价 策略 收益 表现 最 佳 ， 因 此 ， 基 于 深度 强化 学 习 的 联合 库存 控制 和 动态 定 
价 研究 能 够 提高 企业 收益 ， 有 效 促 进 强化 学 习 在 收益 Rd. 具有 实际 应 用 价值 。 
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Research on inventory control and dynamic pricing of fresh produce based on deep reinforcement learning 


Bi Wenjie, Zhou Yubing 
(Business School, Central South University, Changsha 410083, China) 


Abstract: Due to the perishable characteristics of fresh produce and the complex and changing environment, it is difficult to 
obtain the optimal ordering and pricing strategy for fresh produce. To solve this problem, this paper proposed a deep 
reinforcement learning method for joint inventory control and dynamic pricing of fresh produce. The method combined the 
characteristics of fresh produce to model the problem and defined it as a Markov decision process. Then, this paper designed 
a joint inventory control and dynamic pricing algorithm for fresh produce based on deep reinforcement learning. The 
experimental results showed that the inventory control and dynamic pricing algorithm designed based on deep reinforcement 
learning had the best performance in terms of revenue. Therefore, the research on joint inventory control and dynamic pricing 
based on deep reinforcement learning methods can effectively improve enterprise revenue and promote the implementation 
of reinforcement learning in the field of revenue management, which has practical application value. 
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0 引言 化 库存 策略 ， 联 合 定价 和 库存 决策 可 以 令 高 级 时 装 企业 的 收 
m 益 提 升 12.36%; 而 相 比 仅 优化 定价 策略 ， 联 合 优化 能 带 来 
近年 来 ， 人 们 物质 生活 水 平 显著 提高 ， 日 益 追 求 品质 生 ”9.78% 的 收益 提升 。 
活 ， 消 费 者 对 生 鲜 产品 的 需求 不 断 增长 。 而 由 于 电 商 的 迅猛 如 今 大 数据 技术 逐渐 成 为 企业 的 竞争 优势 ， 然 而 传统 的 
发 展 以 及 物流 系统 的 不 断 完善 ， 消 费 者 对 产品 品质 要 求 也 越 ”研究 缺乏 对 企业 所 储存 大 数据 资源 的 利用 和 挖掘 。 因 此 ， 相 
发 严格 。 根 据 国家 统计 局 2020 年 鉴 统计 数据 显示 ， 生 鲜 产 。 关 理 论 研究 也 有 了 新 的 方向 和 发 展 。 有 学 者 将 强化 学 习 技 术 
品 在 全 国 居民 人 均 主要 食品 消费 量 中 的 占 比 超过 一 半 且 需求 。 ”应 用 于 收益 管理 领域 ， 发 现 将 强化 学 习 算 法 如 Q-learning 算 
量 呈 现 逐 年 递增 的 趋势 。 法 应 用 在 易 逝 产品 的 库存 控制 策略 上 可 以 更 好 的 控制 库存 成 
于 生 鲜 产品 具有 广阔 的 市 场 前 景 ， 并 且 近 年 电子 商务 。 本 由。 但 不 少 使 用 Q-learning 作为 方法 的 研究 难以 解决 大 数 


与 冷 链 物流 不 断 发 展 ,“ 生 鲜 网 购 ” 模 式 兴 起 。 企 CE 据 问 题 带 来 的 维度 灾难 难题 。 在 真实 情况 下 ， 环 境 不 仅 十 分 
上 销售 新 鲜 蔬 果 和 生 鲜 肉 类 , 发 展 出 了 “到 店 *“ 到 店 + 到 家 复杂 ， 而 且 常 常会 随 着 时 间 推 移 而 发 生 改 变 。 而 深度 强化 学 
社区 团购 “到 柜 ” 等 多 种 多 样 的 经 营 模式 ， 生 鲜 产 品 极 具 市 习 方法 无 须 对 需求 作出 假设 即 可 解决 各 种 问题 ， 具 有 更 强 适 


E 


HFJ] 1E 2018 年 全 国生 鲜 电 商 只 有 1M T 288]; 201 应 性 和 通用 性 ， 更 适应 于 复杂 多 变 实 环境 。 
年 更 是 众多 中 小 企业 纷纷 关 店 关 停 ;2020 年 受 疫情 影响 ,4 前 深度 强化 学 习 方 法 较 少 应 用 于 收益 管理 领域 ， 本 文 
鲜 电 商 迎 来 了 行业 的 春天 ， 但 同时 竞争 加 剧 。 因 此 ， 生 鲜 通过 深度 强化 学 习 方法 研究 生 鲜 产品 联合 库存 控制 与 动态 定 
商 吸 需 寻 求解 决 方案 以 突破 困境 。 价 问 题 。 其 次 ， 不 少 文 献 基于 单一 批 次 产品 研究 易 逝 品 

同时 ， 考 虑 到 生 鲜 产品 属于 易 逝 品 ， 表 现 出 明显 的 易 远 问题 ， 同 时 研究 库存 控制 与 动态 定价 问题 的 文献 较 少 。 本 文 
性 : 时 令 性 、 生 命 周 期 短 、 期 末 未 售 出 产品 的 残 值 低 以 及 需 ”考虑 多 年 龄 产品 共存 的 情况 ， 并 考虑 了 产品 有 效 期 随机 性 ; 
求 随机 性 强 等 特征 由 汪 。 这些 特 性 导致 产品 本 身 易 损 腐 , 销售 — 除 此 之 外 , 本文 的 状态 转移 函数 引入 了 变质 率 作 为 随机 变量 ， 
风险 增高 。 因 此 ， 企 业 需 要 考虑 到 产品 的 易 逝 性 ， 制 定 合理 而 时 变 的 状态 转移 函数 更 符合 实际 ， 同 时 研究 难度 也 更 大 。 
的 库存 及 定价 策略 ， 才 能 实现 收益 最 大 化 。 除 此 之 外 ， 产 品 。” 最 后 ， 本 文 考虑 了 库存 状态 对 顾客 保留 价格 的 影响 ， 需 求 是 
的 价格 会 影响 需求 ， 进 而 影响 到 最 佳 库存 策略 。 这 种 价格 和 非 齐 次 的 泊 松 过 程 ， 以 此 模拟 复杂 多 变 的 现实 环境 。 在 现 有 
库存 相互 依存 的 关系 意味 着 定价 和 库存 控制 应 该 同时 进行 决 。 研究 的 基础 上 ， 本 文 的 研究 更 贴 合 现实 ， 也 为 企业 决策 提供 
策 , 联合 决策 也 能 有 效 提升 企业 收益 。FangD] 发 现 , 相 比 仅 优 ” 了 一 定 的 管理 依据 。 
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相关 理论 与 方法 
生 鲜 产品 库存 控制 与 定价 策略 研究 


因为 生 鲜 商品 基本 都 


有 易 腐 烂 、 易 损毁 的 特殊 自身 性 
BT Xm, 
意识 到 易 逝 品 研究 的 重 


质 ， 所 以 在 易 逝 品 局 
一 定 的 代表 意义 。 有 村 
性 , 专门 研究 易 
91. JE NE FR GEH 


基于 变质 率 [C8、 价 格 折 
EA IE SUPE 


库存 控制 问题 受到 广泛 开 
设 为 固定 的 常数 。 而 在 实 


假设 为 


虑 时 变 


敏感 度 对 


研究 了 易 逝 品 的 


P. [A 


价 策略 对 消费 者 购买 决策 
众多 学 者 关注 0, Tunuguntla V 等 人 [1 
向 到 顾客 的 保留 价格 ,进而 对 消费 
Herbon 等 人 19 构建 了 易 逝 品 动态 定 
价格 和 有 效 期 对 需求 的 影响 ， 分 析 消 费 者 关于 产品 新 鲜 度 的 


服从 Weibull 分 布 的 变 
的 变质 率 ， 假 设 其 
控制 系统 。 
在 易 逝 品 动态 定价 领 


究 者 们 只 是 将 变质 率 
际 生 活 中 ， 易 逝 品 变质 率 并 非 一 成 
此 研究 者 们 逐渐 考虑 随时 间 变 化 的 变质 率 ， 部 分 将 
&. Mishra 和 Umakanta” 
服从 Weibull 分 布 ， 提 出 了 一 个 库 


或 ， 有 学 者 采用 WTP 模型 衡量 定 


其 中 产品 稀缺 性 也 有 
认为 可 用 库存 数量 也 
者 的 支付 意愿 有 影响 。 
模型 ， 通 过 研究 产品 


[定价 政策 的 影响 。 


进一步 地 ， 有 
D ar 3 


学 者 认为 联合 研究 最 优 


是 易 逝 品 问题 研究 领域 新 的 有 


EE: 


«6 库存 与 定价 策 
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综 上 所 述 ， 目 前 ， 不 少 文献 应 用 强化 学 习 方法 分 别 对 易 
逝 性 产品 的 库存 问题 或 定价 问题 进行 了 研究 。 但 同时 考虑 生 
f 


着 产品 的 订货 及 库存 文献 较 少 ， 考 虑 产品 变质 特性 的 以 及 需 
求 复 杂 性 的 研究 更 少 ， 而 这 是 当前 企业 面临 的 现实 问题 。 本 


文 的 研究 思路 正 是 居于 此 ， 基 于 深度 强化 学 习 来 建 模 求解 生 
鲜 产 品 的 联合 库存 与 定价 问题 ， 得 到 最 大 化 期 望 总 收益 。 


2 ”应 用 场景 分 析 与 模型 构建 


2.1 数学 模型 
前 生 鲜 电 商 往往 采用 “到 家 ”或 “到 店 + 到 家 ”经 营 模 
式 ， 即 生 鲜 电 商 平台 通过 在 社区 周边 设置 门店 、 前 置 仓 ， 或 
者 与 附近 商场 超市 、 小 区 零售 店 进行 合作 ， 提 供 线 上 线 下 一 
体 化 服务 。 消 费 者 在 平台 下 单 后 ， 物 流 将 快速 送 货 到 家 ， 或 
者 消费 者 选择 到 店 自 提 。 大 型 生 鲜 电 商 平台 往往 有 着 快速 变 
化 的 复杂 环境 ， 这 导致 消费 者 需求 具有 高 不 确定 性 。 同 时 ， 
生 鲜 产品 的 易 逝 特性 导致 产品 在 存储 、 销 售 过 程 中 发 生变 质 、 
损坏 、 腐 烂 等 情况 ， 从 而 影响 产品 库存 状态 。 因 此 ， 利 用 平 
台所 储存 的 大 量 数据 ， 不 断 调整 和 优化 库存 和 定价 策略 是 唯 


介 格 和 最 优 库存 将 


向 U4。 近年 来 ， 很 多 文献 


。 文 献 [18] 研 究 了 


里 库存 效应 的 易 逝 品 联合 定 
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jr BURI 
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EA o 


ETF ES J 告 商 誉 、 销 
HAREA TAE 


的 策略 性 行为 ， 研 究 了 单 


阶段 定价 及 库存 决策 模型 。 
12 基于 强化 学 习 的 库存 控制 与 动 


传统 


库存 和 定 


于 强化 学 习 方 法 的 库 
日 强 化 学 习 算 法 分 析 了 考虑 多 零 


chinaXiv 


Oroojlooyja: 
和 迁移 学 习 方 法 用 了 


合 订货 和 定价 问题 。Rana 和 


内 多 个 相互 依赖 的 易 逝 品 收益 管理 
数 形式 未 知 时 ， 他 们 使 用 带 资 
定 最 佳 定价 政策 。 


未 知 的 状态 转换 概率 时 ， 往 往 表 
难以 解决 : 大 的 六 
值 函 数 或 最 佳 动作 ; HT 
EWAH, Q-learning 
变 得 特别 大 ， 这 将 导致 维 
E。 因 此 强化 学 习 由 于 内 存 复杂 1 
性 局 限于 较 小 的 动人 
而 深度 学 习 正 适合 
深度 神经 网 络 结合 
年 来 学 者 们 开始 


did 等 


ys 


告 和 库存 控制 问题 ， 
fF 度 指数 作为 需求 影 


本 文 将 基于 以 上 现实 场景 ， 考 虑 京东 到 家 、 盒 马 生 鲜 等 
大 型 生 鲜 电 商 的 联合 库存 与 定价 问题 。 零 售 店 的 生 鲜 产品 需 
要 每 日 早晨 由 配送 中 心 配 货 ， 零 售 店 会 根据 前 一 日 的 销售 情 
况 进 行 预测 并 决定 当日 订货 量 和 价格 。 
当 顾 客 访问 生 鲜 电 商 平台 或 者 到 达 线 下 零售 店 时 ， 会 根 
据 保留 价格 与 实际 价格 决定 是 否 购买 某 样 产品 。 同 时 ， 研 究 
发 现 产 品 的 库存 数量 也 会 影响 顾客 心目 中 保留 价格 的 设 定 [9。 


态 定价 研究 
场 需求 进行 假设 以 简化 问 
题 ， 与 复杂 多 变 的 实际 环境 有 一 定 差别 。 许 多 学 者 应 用 人 工 
智能 技术 解决 收益 管 至 
存 控制 研究 ，Dosgan 
商 竞 争 的 零售 商 
OliveiraP23] 考 虑 了 
题 ， 当 需求 是 随机 的 且 其 函 
格 迹 的 Q learning 算法 来 于 
强化 学 习 方法 在 问题 具 


非常 大 的 状态 和 行动 空间 以 及 


岗 很 差 ， 主 要 是 有 两 个 问题 


则 导致 难以 存储 每 个 状态 的 价 
1 练 数据 无 法 为 每 个 状态 提供 充 
算法 遇 上 复杂 的 现实 问题 时 Q 表 将 
造成 存储 与 检索 的 困 
性 、 计 算 复 杂 性 ， 以 及 样本 
单 本 空间 的 低 维 问题 P5' 261 
问题 ， 学 者 们 将 强化 学 习 与 


起 来 发 展 形 成 深度 强化 学 习 。 


化 学 习 研 究 库存 问题 。 
种 多 智能 体 的 深度 强化 学 习 算 法 
个 可 


进行 测试 ， 


实 世 界 的 数 


3L, 


现实 行为 模型 时 ， 算 法 表现 


也 有 相当 多 的 看 
化 学 习 算 法 而 


于 基础 库存 


-N 


Fo FAN] 


步 使 


结 


H 


化 学 习 模 型 。 


深度 强化 学 习 来 而 
难度 的 易 逝 品 研究 。 


于 动态 定价 领域 


] Q-learning2l、 策 略 梯度 PC9] 


各 。WangB0 的 研究 


完 联 合 库存 与 定价 问题 ， 侧 重 
神经 网 络 来 避免 维度 灾 


果 表 明 深 度 强化 学 习 模 型 优 ] 


使 用 神经 网 络 的 传 


目前 ,已 经 有 部 分 电 商 平台 在 商品 详情 页 显示 当前 库存 状态 ， 
比如 淘宝 、 亚 马 逊 等 。 当 顾客 发 现 当 前 库存 较 少 、 产 品 很 快 
就 会 缺 货 时 会 产生 一 种 紧迫 感 ， 认 为 任何 延迟 可 能 就 会 错过 
产品 ， 从 而 提高 购买 欲望 ， 保 留 价格 因而 提高 ， 因 此 本 文 假 
设 保留 价格 的 均值 和 标准 差 都 随 着 库存 的 减少 而 增加 。 
本 文 引 入 如 下 假设 : 
a) 假 设 配 送 中 心 可 以 无 限量 供 货 ， 产 品 从 配 货 开始 即 进 入 
其 生命 周期 1, 且 需要 经 过 提前 期 L 到 达 零 售 店 仓库 ,有 0<L<i; 
b) 本 文 基于 Mishra 和 Umakanta HIAR, VA Weibull P 
数 表述 生 鲜 产品 的 变质 率 6 (0 作为 产品 的 易 逝 特征 ， 遵 循 双 
参数 Weibull 445: 0()-aBt^ 。 其 中 <a <1 是 规模 参数 ， 
B>0 是 形状 参数 ，0<9(t) <1; 
c) 由 于 生 鲜 产品 的 易 逝 特性 ， 产 品 过 期 以 后 将 停止 售卖 
并 销毁 处 理 , 残 值 为 0。 当日 产品 提前 售卖 完 也 不 进行 补 货 ; 
dg 假设 售卖 生 鲜 产品 服从 先进 先 出 策略 ， 即 剩余 有 效 其 
较 少 的 产品 将 优先 卖 出 ; 
e) 假 设 顾 客 的 到 达 遵 循 强度 为 A (0) 的 非 齐 次 泊 松 过 程 60。 
异 质 性 顾客 购买 概率 取决 于 保留 价格 V(t) ， 当 产品 价格 比 顾 
客 心 中 的 保留 价格 更 低 时 ， 顾 客 将 立即 购买 。 本 文 还 考虑 顾 
客 价 格 敏 感 系数 为 alt) 。 由 此 ， 需 求 过 程 实际 上 可 以 表述 为 
3$18 Apt) 2 A()0 -F (a(t) p.0) 的 非 齐 次 泊 松 过 程 。 
了 顾客 保留 价格 Y(D 均值 x(7) 和 标准 差 o(7) 受 瞬时 库存 
数量 的 影响 : 4(O)=A+5e ,ac(O)=om+2e ,其 中 参数 k 用 
于 调整 库存 范围 。 
综 上 所 述 ， 本 文联 合 库存 与 定价 问题 的 数学 模型 如 下 : 


max Vr => (p xn —c,xq'! — Chn x(OI' -c, x(OI*) -cy ) 
1-0 


a (1) 
st. n «d' 
其 中 数学 符号 含义 如 表 1 所 示 。 
2.2 马尔 可 夫 决 策 过 程 
上 述 生 鲜 产品 的 联合 库存 与 定价 是 一 个 序列 决策 问题 ， 
而 在 多 种 场景 下 ， 强 化 学 习 已 经 被 证 明 能 够 有 效 解决 复杂 序 
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列 决策 问题 。 其 特点 在 于 强化 学 习 是 智能 系统 从 环境 到 行为 。” 贝尔 曼 条 件 以 及 马尔 可 夫 决 策 过 程 ， 并 以 贝尔 曼 期 望 方程 描 
映射 的 学 习 。 智 能 体 通 过 行为 策略 与 环境 进行 交互 并 得 到 反 。 述 了 状态 价值 函数 与 动作 价值 函数 之 间 的 关系 ， 这 正 是 强化 
馈 。 如 果 采 取 某 个 策略 能 获得 正 的 奖励 反馈 ， 智 能 体 将 加 强 学习 方法 的 理论 基础 。 但 直接 求解 贝尔 曼 期 望 方程 是 不 切实 
选择 该 策略 的 趋势 ,如 此 智 


能 体 逐 步 迭 代 学 习 得 到 最 优 策略 。 际 的 ， 强 化 学 习 逐 渐 发 展 出 基于 价值 的 强化 学 习 方 法 (Value- 
表 1 数学 符号 表示 Based RL)、 基 于 概率 的 强化 学 习 方法 (Policy-Based RL)。 前 
Tab.1 Mathematical symbol meaning 者 主要 代表 算法 有 基于 在 线 更 新 的 SARSA 算法 以 及 离线 学 
数学 符号 含义 习 策 略 的 Q-learning 算法 ;后 者 有 策略 迭代 算法 (Policy 
r t 期 收益 Gradients)， 它 针对 连续 动作 空间 ， 直 接 输出 下 一 动作 概率 。 
p! t 期 产品 价格 除 此 之 外 ， 以 上 两 类 算法 合并 形成 了 行为 -评判 算法 (actor- 
n t 期 作出 定价 产后 产品 销量 critic), 该 算法 结合 两 类 算法 的 优点 , 使 用 Critic 学 习 奖 惩 机 
单位 订货 成 本 制 ，Actor 输出 动作 概率 。 
€, 单位 库存 成 本 强化 学 习 的 目的 是 通过 学 习 策 略 获得 最 优 收 益 。 作 为 值 
e, 单位 缺 货 成 本 函数 迭代 强化 学 习 方 法 ，Q-learning 算法 将 通过 Q 值 表 记录 
cr 固定 成 本 状态 -行动 对 的 值 ， 并 基于 bellman 方程 更 新 Q 表 : 
Or t 期 零售 商 的 可 用 库存 
ds on Q(S.A) QS A.) ea R, «ymaxQ(S.,3)-Q(.A)] 2) 
马尔 可 夫 决 策 过 程 是 对 强化 学 习 问 题 的 数学 描述 ， 本 文 Q-learning 有 明显 的 局 限 性 ， 当 状态 空间 或 者 动作 空间 
将 通过 马尔 可 夫 决 策 过 程 构建 强化 学 习 四 元 组 M=(S,A,P,R) ， ”特别 大 时 ，Q-learning 算法 难以 建立 和 维护 一 个 巨大 的 Q f 


应 用 强化 学 习 算法 求解 生 鲜 产品 的 联合 库存 与 定价 问题 。 本 。” 表 ， 因 此 难以 记录 所 有 的 状态 和 动作 。 为 了 解决 维度 灾难 问 

文 定义 马尔 可 夫 决策 过 程 如 下 ， 题 ，Mnih 等 Ga 将 Q-leaming 算法 与 深度 学 习 结合 ， 扩 展 成 
状态 空间 : c 期 的 状态 变量 为 (1-1) 维 向 量 seoses], Deep Q-network(DQN)， 它 使 用 神经 网 络 来 近似 Q 值 表 ， 即 

st 表示 t 期 产品 剩余 有 效 期 为 7 一 的 产品 库存 数量 , L 为 订货 以 函数 来 表示 状态 -动作 对 Q(sa): Q(sa)cef(saw) 

a B MM DON 可 以 由 当前 奖励 和 下 一 状态 的 Q 估计 值 来 估计 Q 

提前 期 ，! 为 产品 有 效 期 ，0<L<1。 有 00'= 和 表示 在 途 产 hice ick ND Q 估计 值 和 Q 目标 值 之 间 的 差异 ， 以 此 更 

新 神经 网 络 的 参数 , 其 损失 函数 采用 估计 值 和 目标 值 的 均 方差 ， 


L(w)-E [(r*zmaxQG'a' w )-Q(s.a.w))' | (3) 


1-1 
品 ， 当 订货 提前 期 工 为 0 时 oo' =0; Or-Ys 表示 零售 商 的 
EL 


可 用 库存 。 如 果 or >0 则 表示 当前 可 用 库存 >0。 
行动 空间 : t 期 决策 变量 a (a.p). « 为 订货 数量 ，p 同时 ， 强 化 学 习 采 集 的 训练 数据 之 间 往 往 存在 相关 性 ， 


为 产品 价格 。 订货 数 量 将 遵循 4+x 规 则 , 零售 商 在 1-1 期 观察 ” ”这 会 导致 神经 网 络 不 稳定 , DON 使 用 了 经 验 回放 机 制 (replay 
到 需求 4" , 在 1 期 决定 订货 量 为 4=d"'+x , 即 零 售 商 将 决定 。 ”buffer) 来 避免 该 问题 。 即 采用 经 验 池 p 存储 每 步 探 索 的 数据 
在 上 期 需求 基础 上 加 减 的 数量 。 {S,A,R,S",isdone} ， 从 中 取样 并 根据 取样 数据 计算 Q 目标 值 ， 
状态 转移 : 变质 率 9(t) 表示 t 时 刻 生 鲜 产品 的 变质 特征 。 更 新 当前 神经 网 络 参数 。 
假设 当 零 售 商 没有 足够 库存 满足 某 一 笔 订 单 时 ， 订 单 将 会 消 为 了 解决 DQN 的 过 估计 等 问题 ,优化 算法 的 性 能 表现 ， 
R: 当 i<L 有 si=s， 当 Ii<1 时 有 学 者 们 逐渐 提出 了 双重 DQN 算法 (Double DQN)、 优 先 级 经 
验 回 放 (DQN with Prioritized Replay) 以 及 对 偶 DQN(Dueling 
ZEE» DQN) 等 方法 。 在 对 偶 DQN 算法 中 ， 学 者 修改 了 DQN 的 神 
di 经 网 络 架构 ， 大 幅 提高 了 算法 的 效率 。 相 比 于 DON 使 用 神 
奖励 函数 : 智能 体 观 察 得 到 当前 状态 s 并 作出 决策 a 以 经 网 络 直接 输出 各 个 动作 的 Q 值 ， 对 偶 DON 定义 了 一 个 优 
后 ， 将 得 到 相应 的 奖励 ”， 由 此 可 以 衡量 出 动作 的 价值 。 势 函数 A(s.a) 2 Q(s.a) - V (s.a) 


2d 


Q 值 将 由 状态 价值 估计 值 V(se:w) 和 优势 函数 估计 值 
A(aiw) 确定 : 


状态 变量 s 可 以 得 知 可 用 库存 二 ,因此 可 以 计算 得 出 相应 芯 

短缺 或 持 有 成 本 ， 以 及 过 期 产品 的 处 理 成 本 。 由 决策 变量 

的 订货 数量 gq 计算 相应 订货 成 本 ,以 及 由 价格 和 需求 得 出 也 Q(s,a;w)=V (s;w)+ A(s,a;w) (4) 

当期 收益 。 由 此 得 出 奖励 函数 可 表述 为 : 综 上 所 述 ， 在 本 文 的 联合 定价 和 库存 控制 问题 中 ， 智 能 

rom xp -e xq -cx(O7) -cx(o -csx(shi-n') -c;， 当 零售 商 的 可 ” 体 的 状态 设置 为 =[s%,sf…,s…,sh] ， 表 示 当 期 的 库存 状态 。 
的 


TEE 


c 


用 库存 大 于 需求 时 , 销量 w=d' ; 当 零 售 商 缺 货 时 , RIEK 本 文采 用 经 验 回放 与 固定 目标 网 络 机 制 ， 设 置 两 个 结构 相同 
订单 不 再 延续 到 下 一 期 ，n =r o 但 参数 不 同 的 神经 网 络 ， 即 评估 网 络 和 目标 网 络 。 同 时 为 Q 
t 期 事件 发 生 顺 序 如 下 : 值 定义 优势 函数 ， 用 以 优化 算法 的 性 能 。 神 经 网 络 的 具体 细 
a) 期 初 更 新 ! 期 的 状态 为 5; 节 设 置 将 在 下 一 章节 进行 详细 描述 。 每 期 智能 体 将 按照 贪 禁 
b) 智 能 体 作 出 决策 a ， 决 定 订货 数量 4 和 产品 价格 疡 ， ”策略 作出 决策 ,从 订货 和 定价 的 动作 空间 中 选择 出 某 一 动作 。 
产品 将 在 工期 后 到 达 。 当 LK=0， 产 品 将 马上 到 达 ; 智能 体 采取 行动 后 ， 将 收 到 环境 的 反馈 ， 从 而 估计 出 目标 Q 
c) 需 求 4d' 到 达 ， 在 零售 商 缺 货 的 情况 下 ， 未 满足 的 订单 。 ” 值 ， 并 更 新 评估 神经 网 络 参数 。 经 过 固定 数量 的 步 又 后 ， 将 


将 消失 。 而 交付 订单 后 ， 余 下 有 效 期 内 库存 将 转移 至 下 个 周 。 评估 网 络 的 参数 值 赋 给 目标 网 络 。 本 文生 鲜 产 品 库 存 控 制 和 


期 ， 过 期 产品 将 被 处 理 ; 定价 具体 算法 如 下 所 示 。 
d) | 期 末 结 算 该 期 收益 与 成 本 ,智能 体 收 到 奖励 R ， 并 算法 ” 生 鲜 库存 控制 和 定价 算法 
更 新 状态 至 Sr 。 输入 : 环境 。 


3 ” 生 鲜 产品 联合 定价 和 库存 控制 算法 设计 Ao 
SEI HBSA HAE TTERAPAAM, a) (初始 化 ) 初 始 化 评估 网 络 4 的 参数 9 和 目标 网 络 9 的 参数 6 ;初始 


强化 学 习 的 发 展 历史 最 开始 可 以 追溯 到 Bellman 提出 的 。 化 经 验 池 DP ， 其 大 小 设置 为 。 
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逐 回合 执行 : 

b) 初 始 化 环境 和 状态 s, : 

Cc) 从 t=1 到 1=T， 执 行 以 下 操作 : 

(a) (AERAR E, M Al) 中 等 概率 随机 选择 一 
否则 ， A=arg max, q(S,,4) ; 

(b) 执 行动 作 4 ， 观 测 环境 得 到 奖励 R 和 下 一 状态 5 

(c) (经 验 存储 ) 将 四 元 组 (5,4,R,S") 存 入 经 验 池 D 中 ; 

(d) (经验 回 放 ) 从 经 验 池 D 中 采样 出 一 批 数 据 (Sa ARS) o 


a) 生 鲜 产品 生命 周期 1 设置 为 {4,5,6} ,提前 期 工 为 {012} ; 

b) 产 品 价格 集合 扣 率 形式 的 离散 定价 集合 ， 
discount ={0.1,0.2,…,0.9,1.0} , 原 台 定价 Pus =20 ; 

9 产品 订购 数量 采取 d+x 形式 ， 设 置 x 取 值 范围 为 
(-20,-..,20] ; 

dd) 对 于 egreedy 策略 ， 设 置 探索 值 。 在 学 习 过 程 中 将 逐步 


衰减 到 闵 值 ,初始 时 ss 709 ,在 迭代 中 线性 递减 直到 6 =0.1: 


个 动作 A; 


Enit — Cend 


Yi=1,.. N 3 episodes x 8 ^ 
(e) 计 算 回报 的 估计 值 ; 4.1 深度 学 习 超 参数 的 选择 与 测试 
»- R 计 ] 期 回合 终止 由 于 算法 引入 了 深度 神经 网 络 ， 并 且 模 型 的 超 参数 一 般 
C [Rer max, Q(St. A56) Rm c 需要 手动 设置 ， 不 同 于 由 数据 估计 而 来 的 参数 ， 超 参数 的 选 
(f) 更 新 动作 价值 函数 逼近 的 神经 网 络 参 数 0 ; 择 将 直接 影响 到 智能 体 训练 的 稳定 性 和 收敛 性 ， 关 系 到 训练 
(g) 更 新 状态 变量 SS 效果 的 好 坏 ， 因 此 如 何 选取 超 参数 ， 保 证 策略 的 有 效 性 是 强 
(h) 每 隔 C 步 更 新 目标 网 络 的 参数 6 0 。 化 学 习 在 实际 应 用 中 的 关键 问题 。 本 文 将 针对 学 习 率 和 


gamma 值 超 参 数 作出 比较 ， 分 析 其 对 训练 效果 的 影响 。 
a) 在 其 他 参数 相同 的 情况 下 , 分 别 测试 了 学 习 率 a=0.005、 


4 ”仿真 实验 


实验 将 设 定 具 体 的 实验 参数 ， 通 过 深度 强化 学 习 算 法 与 a=0.001, a=0.0005 的 情况 。 实 验 结果 如 图 1 所 示 。 学 习 率 是 
设计 好 的 模拟 环境 进行 交互 ， 得 到 具体 的 数值 结果 。 以 此 分 。 深度 学 习 模 型 训练 中 非常 重要 的 参数 ， 关 系 到 神经 网 络 参数 
析 算 法 在 仿真 应 用 环境 中 的 表现 结果 ， 并 判断 算法 能 否 应 用 的 更 新 程度 ， 进 而 影响 模型 的 收 化 。 学 习 率 参数 值 设 置 得 过 
于 真实 环境 ,实验 采 用 控制 变量 法 , 比较 学 习 率 (learning rate)、 ”高 或 过 低 都 将 导致 模型 性 能 表现 不 佳 ， 学 习 率 过 高 将 可 能 导 
gamma 值 参数 对 实验 结果 的 影响 。 致 模型 不 收敛 ， 当 学 习 率 选取 0.005 时 算法 前 期 震荡 幅度 非 

根据 上 述 模 型 与 算法 分 析 ， 本 文 首先 对 算法 的 神经 网 络 。” 常 大 ， 后 期 表现 也 不 如 选取 学 习 率 为 0.001 的 算法 ， 学 习 率 
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进行 设置 。 算 法 设 有 两 个 结构 相同 的 神经 网 络 ， 其 参数 分 别 过 低 则 将 导致 算法 训练 时 间 过 长 ， 需 要 更 多 时 间 才 能 收敛 。 
为 9 和 9 。 每 个 神经 网 络 有 两 个 隐藏 层 ， 并 使 用 ReLU 激活 b) 固 定 其 他 参数 ， 分 别 测试 了 gamma 值 y-0.9. 7-0.95. 
函数 。 设 置 经 验 池 的 容量 大 小 N 为 10000， 每 回合 将 随机 从 ”y=0.99 的 情况 ， 实 验 结果 如 图 2 所 示 。 对 于 gamma 值 而 言 ， 
中 采样 。 更 新 目标 网 络 的 间隔 步 数 C 设置 为 300 步 参数 设置 越 高 ， 智 能 体 将 越 注 重 未 来 总 体 收益 ， 难 于 关注 眼 
实验 的 通用 参数 设置 为 前 的 短期 收益 ， 因 此 训练 将 困难 、 缓 慢 。 
0 
=] 
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E 
D 
S 
0 
之 
(U 
M 一 各- 1r-0.005 
2000  —&- kr=0.0005 
—— k=0.001 
episode 
图 1 学 习 率 a=0.005、a=0.001、a=0.0005 
Fig. 1 Learning rate at a=0.005, a=0.001, a=0.0005 
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Critic 网 络 都 为 两 层 全 连接 层 ， 激 活 函 数 为 Relu 函数 ， 学 习 


录用 定稿 Hi, 4: 基于 深 
4.2 深度 强化 学 习 算 法 性 能 实验 
强化 学 习 方法 应 用 于 收益 管理 领域 已 经 有 一 定 研究 ， 


Q-learning 算法 与 SARSA 算法 应 用 较为 / 


文 将 基于 上 述 参 数 设置 ， 


与 以 下 基准 模型 进行 对 比 实验 : 


iz P554, 深度 强化 
学 习 方 法 中 的 DDPG 算法 在 电子 商务 领域 也 得 到 应 用 B99。 本 


a)DDPG 算法 是 将 深度 神经 网 络 融入 确定 性 行为 策略 的 
的 两 个 Actor 网 络 和 两 个 


策略 学 习 方 法 ， 本 文 设 置 DDPG 
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算法 和 Q-learning 算法 ，SARSA 
性 方面 DON 算法 也 优 于 其 
和 Q-learning m 都 比较 震荡 o 

表 2 模型 收益 表现 对 比 


Tab.2 Performance comparison between models 


模型 中 位 数 ”平均 收益 ”收益 上 界 ” 收益 下 界 
DQN 4239 4228 5854 1021 
DDPG 4276 4186 6248 1209 
Q-learning 4032 4032 5248 2920 
SARSA 3476 3480 6627 425 


现实 中 的 需求 变化 极 


能 够 解决 维度 灾难 问题 ， 
定价 策略 。 由 此 可 见 ， 基 


态 定 价 模型 具有 非常 ) 


5 Wi 


目前 生 鲜 7 
F 零售 商 而 言 如 何 合理 
题 。 本 文 研究 了 生 鲜 产品 的 联合 库存 控制 


于 DQN 方法 的 联合 库存 控制 


泛 的 应 用 价值 。 


-u 


其 复杂 ， 各 种 因素 导致 需求 呈现 随 
机 性 强 、 非 稳 态 的 波动 变化 。 DQN 库存 控制 与 动态 定价 算法 


也 能 为 企业 提供 近似 最 优 的 订货 和 
与 动 


品 需求 逐年 递增 ， 市 场 规模 也 相应 扩大 ， 对 
控制 库存 与 定价 是 非常 重要 的 决策 问 
n 与 动态 定价 问题 ， 


在 需求 不 断 变化 的 情况 下 通过 深度 强化 学 习 算 法 探索 生 鲜 ; 


的 最 优 订货 量 和 最 优 定 价 ， 从 而 达到 企业 收益 最 大 化 的 目的 。 
大 态 转 移 的 一 部 分 。 


首先 ,本 文 引入 了 时 变 的 变质 率 作为 ; 


随 着 时 间 推 移 ， 生 鲜 产 品 将 或 多 或 少 损坏 或 腐烂 ， 通 过 变化 
的 变质 率 描述 该 现象 更 符合 实际 。 而 强化 学 习 方 法 对 于 未 知 


的 状态 转移 函数 表现 不 佳 ， 目 前 基于 强化 学 习 的 收益 管理 研 
究 很 少 涉及 到 变化 的 状态 转移 方程 ， 本 文通 过 深度 强化 学 习 


方法 弥补 了 该 方面 的 不 足 。 


rn 


bg A 其 购买 欲望 ， 从 而 影响 到 7 
到 这 一 点 ， 零 售 商 可 以 战略 性 地 决定 库存 
其 收益 最 大 化 。 基 于 受 库 存 影响 的 顾客 支付 意愿 ， 
了 零售 商 在 短 销售 期 限 内 销售 生 鲜 产品 的 库存 和 定价 策略 。 


除 此 之 外 ， 当 顾客 感知 到 产品 库存 较 少 ， 商 品 即将 缺 货 


品 
和 定价 策略 ， 以 使 
本 文 研究 


L 


目前 学 术 界 少 有 相关 研究 ， 本 文 研究 成 果 对 易 逝 品 收益 管 
领域 有 所 页 献 。 


更 新 求解 最 优 策 
法 更 新 最 优 动 作价 值 估计 。 


率 a=0.001, gamma {Ë =0.95， 探 索 值 s 设置 为 前 文 衰减 策略 ; 


b) 表 格式 强化 学 习 方法 : SRASA 算法 通过 同 策 


时 序 差 分 
略 ，Q learning 则 是 异 策 算法 , 采用 不 同 的 方 
本 文 设 置 SRASA 算法 与 Q 


learning 算法 的 学 习 率 、gamma 值 等 超 参数 均 与 上 述 一 致 ， 
算法 结果 如 图 3 所 示 。 
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200 250 


episode 


设计 的 深度 强化 学 习 算法 ， 根 
格 和 订货 量 ， 使 预 
联合 定价 和 库存 控制 问题 。 未 来 可 以 在 考虑 竞争 情况 下 的 库 


图 3 DQN、DDPG、Q-learning E SARSA 实验 对 比 结果 
Fig.3 Results for DON, DDPG、 Q-learning and SARSA 
A2 可 见 ,， DON 算法 的 收益 表现 最 佳 ， 其 次 是 DDPG 
算法 的 收益 最 低 。 而 在 稳定 
也 算法 , 相 较 于 DON 算法 ,DDPG 


在 生 鲜 


产品 联合 库存 控制 与 动态 定价 问题 中 ， 本 文通 过 
居 当 前 可 用 库存 来 动态 调整 从 
期 利润 最 大 化 。 本 文 只 关注 单一 代理 人 的 


存 控制 和 动态 定价 方面 进行 深入 的 研究 。 
参考 文献 : 
[1] 但 斌 ， 陈 军 ， 吴 庆 . 基于 多 级 折扣 价格 的 易 逝 品 订货 策略 研究 [I]. 


[2] 


[3] 


[4] 


[5] 


[6] 


[7] 


[8] 


[9] 


中 国 管理 科学 , 2006(3): 38-44. (Dan Bin, Chen Jun, Wu Qing. Optimal 
ordering policy for perishable product with progressive price discounts 
[J]. Chinese Journal of Management Science, 2006(3): 38-44.) 

RRE, Pi, We, 等. 基于 电子 市 场 的 易 逝 品 两 级 供应 链 供需 
博弈 分 析 D] 中 国 管理 科学 , 2004(3): 92-7. (Zhao Quanwu, Xiong 
Zhongkai, Lin Ya, et al. Game analysis of two-stage supply chain for 
perishable goods under e-marketplace [J]. Chinese Journal of 
Management Science, 2004(3): 92-7.) 

Fang F, Nguyen T-D, Currie C S. Joint pricing and inventory decisions 
for substitutable and perishable products under demand uncertainty [J]. 
European Journal of Operational Research, 2021, 293 (2): 594-602. 
Kara A, Dogan I. Reinforcement learning approaches for specifying 
ordering policies of perishable inventory systems [J]. Expert Systems 
with Applications, 2018, 91: 150-8. 

Li R, Lan H, Mawhinney J R. A review on deteriorating inventory study 
[J]. Journal of Service Science and Management, 2010, 3 (01): 117. 
Ferguson M, Ketzenberg M E. Information sharing to improve retail 
product freshness of perishables [J]. 
Management, 2006, 15 (1): 57-73. 


Production and Operations 


Mishra U. An EOQ model with time dependent Weibull deterioration, 
quadratic demand and partial backlogging [J]. International Journal of 
Applied and Computational Mathematics, 2016, 2 (4): 545-63. 

李 业 梅 , 黄 少 安 . 基于 EOQ 模型 的 非 肯 时 变质 食品 提前 支付 订货 策 
略 研究 [D]. 中 国 管理 科学 : 1-13. (Li Yemei, Huang Shaoan. Advance 
payment strategy of non-instantaneous food based on EOQ model [J]. 
Chinese Journal of Management Science, 1-13.) 

Viswanathan S, Wang Q. Discount pricing decisions in distribution 


channels with price-sensitive demand [J]. European Journal of 


Operational Research, 2003, 149 (3): 571-87. 

[10] 徐 贤 浩 ， 王 倩 ， 曾 款 ， 等 . 延迟 支付 条 件 下 易 逝 品 的 最 优 订货 决策 研 
3L J]. 中 国 管理 科学 ,2021, 29 (02): 108-16. (Xu Xianhao, Wang Qian, 
Zeng Kuan, et al. Study on the optimal ordering policy of perishable 
products with delayed payment [J]. Chinese Journal of Management 
Science, 2021, 29 (02): 108-16.) 

[11] AEE, AA. 仓储 能 力 约 束 和 缺 货 下 两 易 逝 品 联合 采购 动态 批量 
决策 [J]. 系统 工程 , 2018, 36 (7): 47-54. (Jing Fuying, Pan Yang. A two 
product dynamic lot size model with perishable inventory and joint 
ordering under bounded inventory [J]. Systems Engineering, 2018, 36 (7): 
47-54.) 

[12] Wertenbroch K, Skiera B. Measuring consumers'willingness to pay at the 
point of purchase [J]. Journal of marketing research, 2002, 39 (2): 228- 
41. 

[13] Kalish S. A new product adoption model with price, advertising, and 
uncertainty [J]. Management science, 1985, 31 (12): 1569-85. 

[14] Zhu M, Ratner R K. Scarcity polarizes preferences: The impact on choice 
among multiple items in a product class [J]. Journal of Marketing 
Research, 2015, 52 (1): 13-26. 

[15] Tunuguntla V, Basu P, Rakshit K, et al. Sponsored search advertising and 
dynamic pricing for perishable products under inventory-linked customer 
willingness to pay [J]. European Journal of Operational Research, 2019, 
276 (1): 119-32. 

[16] Herbon A, Khmelnitsky E. Optimal dynamic pricing and ordering of a 
perishable product under additive effects of price and time on demand 
[J]. European Journal of Operational Research, 2017, 260 (2): 546-56. 

[17] Dye C-Y, Hsieh T-P, Ouyang L-Y. Determining optimal selling price and 
lot size with a varying rate of deterioration and exponential partial 
backlogging [J]. European Journal of Operational Research, 2007, 181 
(2): 668-78. 

[18] Dye C-Y. Optimal joint dynamic pricing, advertising and inventory 
control model for perishable items with psychic stock effect [J]. 
European Journal of Operational Research, 2020, 283 (2): 576-87. 

[19] 唐 跃 武 ， 范 体 军 , 刘 莎 . 考虑 策略 性 消费 者 的 生 鲜 农产品 定价 和 库 
存 决策 D] 中 国 管理 科学 , 2018, 26 (11): 105-13. (Tang Yuewu, Fan 
Tijun, Liu Sha. Pricing and inventory decision-making for fresh 
agricultural products with strategic consumers [J]. Chinese Journal of 
Management Science, 2018, 26 (11): 105-13.) 

[20] 王小云 ， 姜 樱 梅 ， 件 进 进 . 基于 新 鲜 度 的 冷 链 一 体 化 库存 与 定价 联 
合 决 策 D]. 中 国 管 理科 学 ,2018, 26 (7): 132-41. (Wang Shuyun, Jiang 
Yingmei, Mou Jinjin. Inventory and pricing decision of an integrated 
cold chain based on freshness [J]. Chinese Journal of Management 
Science, 2018, 26 (7): 132-41.) 

[1] $46, DAR, TAA. 易 逝 品 随机 生产 库存 模型 动态 定价 ,服务 水 
平和 生产 控制 策略 [J]. 系统 工程 理论 与 实践 , 2018, 38 (7): 1717-31. 


: 基于 深度 强化 学 习 的 生 鲜 产品 联合 库存 控制 与 动态 定价 研究 


(Cao Yu, Yi Chaoqun, Wan Guangyu. Dynamic pricing, service and 
production control strategy of stochastic production-inventory models 
with perishable products [J]. Systems Engineering 一 Theory & Practice, 
2018, 38 (7): 1717-31.) 

[22] Dogan I, Guener A R. A reinforcement learning approach to competitive 
ordering and pricing problem [J]. Expert Systems, 2015, 32 (1): 39-48. 

[23] Rana R, Oliveira F S. Dynamic pricing policies for interdependent 
perishable products or services using reinforcement learning [J]. Expert 
Systems with Applications, 2015, 42 (1): 426-36. 

[24] Zarandi M H F, Moosavi S V, Zarinbal M. A fuzzy reinforcement learning 
algorithm for inventory control in supply chains [J]. The International 
Journal of Advanced Manufacturing Technology, 2013, 65 (1-4): 557-69. 

[25] Arulkumaran K, Deisenroth M P, Brundage M, et al. A brief survey of 
deep reinforcement learning [J]. arXiv preprint arXiv: 170805866, 2017. 

[26] Strehl A L, Li L, Wiewiora E, et al. PAC model-free reinforcement 
learning [C]// Proceedings of the 23rd international conference on 
Machine learning. 2006: 881-888. 

[27] Oroojlooyjadid A, Nazari M, Snyder L V, et al. A Deep Q-Network for 
the Beer Game: Deep Reinforcement Learning for Inventory 
Optimization [J]. Manufacturing & Service Operations Management, 
2021. 

[28] Jintian W, Lei Z. Application of reinforcement learning in dynamic 
pricing algorithms [C]// 2009 IEEE International Conference on 
Automation and Logistics. IEEE, 2009: 419-423. 

[29] Könönen V. Dynamic pricing based on asymmetric multiagent 
reinforcement learning [J]. International journal of intelligent systems, 
2006, 21 (1): 73-98. 

[30] Wang R, Gan X, Li Q, et al. Solving a Joint Pricing and Inventory Control 
Problem for Perishables via Deep Reinforcement Learning [J]. 
Complexity, 2021, 2021. 

[31] Zhao W, Zheng Y-S. Optimal dynamic pricing for perishable assets with 
nonhomogeneous demand [J]. Management science, 2000, 46 (3): 375- 
88. 

[32] Mnih V, Kavukcuoglu K, Silver D, et al. Human-level control through 
deep reinforcement learning [J]. Nature, 2015, 518 (7540): 529-533. 

[33] EK, EF. 基于 强化 学 习 的 动态 定价 策略 研究 综述 [D]. 计算 机 应 
用 与 软件 , 2019, 36 (12): 1-6. (Wang Xin, Wang Fang. A review of 
dynamic pricing strategy based on reinforcement learning [J]. Computer 
Applications and Software, 2019, 36 (12): 1-6.) 

[34] GaSperov B, Begušić S, Posedel Simovié P, et al. Reinforcement 
Learning Approaches to Optimal Market Making [J]. Mathematics, 2021, 
9 (21): 2689. 

[35] Mosavi A, Faghan Y, Ghamisi P, et al. Comprehensive Review of Deep 
Reinforcement Learning Methods and Applications in Economics [J]. 


Mathematics, 2020, 8 (10): 1640. 


